特别推荐丨老姚专栏:多重共线性问题应该这样理解才对
推荐语
关于多重共线性问题,一般计量的教材或课程会介绍该问题统计上表现、检验的方法。但姚老师的这篇文章不仅形象揭示了多重共线性问题“损害”所关注自变量估计结果的机制,还强调了多重共线性与变量遗漏问题之间的内在关系,即它是我们为避免变量遗漏问题所必须承担的代价。既然我们做(微观)计量的最害怕变量遗漏带来内生性问题,那么多重共线性就或多或少会存在。值得“高兴”的是,该文还指出多重共线性问题在样本较小的情况下会更加严重,那么让我们在未来的研究中尽可能采用大样本,或者不得不面对样本较小的情况时,对结果尽量保持“低调”吧。
——杨奇明
多重共线,即自变量间存在较大程度的相关性,在多元线性回归模型中颇为常见。传统的计量经济学教科书通常将多重共线视为一个问题。其实,与其说它是一个问题,还不如说它是多元线性回归模型的源起——如果自变量间没有任何相关性,那么简单线性回归模型就足矣,根本毋需“更复杂”的多元线性回归模型。因此,对于理解多重共线问题,多元线性回归方法的基本原理是一个很好的起点。
在多元线性回归模型中,任何一个待估计系数所代表的是,在“保持其他影响因素不变(Ceteris paribus)”的条件下,某一自变量对因变量的影响。实际上,这是经济学中的“局部均衡”分析方法,而这里的“影响”是边际意义上的,与微积分中的“偏导”相对应。
那么,多元线性回归方法如何做到“保持其他影响因素不变”呢?毕竟,现实中各个变量一般都会同时发生变化。这是一个好问题,因为其直指多元线性回归方法的核心。为了回答这一问题,首先需指出,任何一个自变量都含有两类信息:一类是该自变量与其他自变量共同具有的信息,我们可将之称为重叠信息;另一类是该自变量特有的信息。多元线性回归方法的基本原理是:利用某一自变量的特有信息来估计该自变量的边际影响。现在的问题是,如何将特有信息与重叠信息进行分离呢?
信息分离的方法很简单:将该自变量对其他自变量进行多元线性回归,进而获得回归的拟合值与残差,其中拟合值代表了重叠信息,残差代表了特有信息。在代数上可证明,这两种信息不相关,表明信息分离得很“干净”。如果已经把特有信息分离出来,那么接下来的操作是:将因变量对上述回归残差进行简单线性回归,从而获得斜率估计系数,而这也是对边际影响的估计。
我们在此介绍的多元线性回归方法非常直观,但遗憾的是,大多数计量经济学教科书均通过矩阵代数方法来获得对边际影响的估计,很少会进行这样的介绍。其实,这两种方法在数学上是等价的,这正是著名的Frisch-Waugh-Lovell定理。
前文指出,某一自变量所包含的信息由重叠信息与特有信息两部分构成,而多元线性回归方法利用特有信息来估计该自变量的边际影响。为了强调特有信息的重要性,我们不妨将之称为有效信息。显然,有效信息越少,越不利于进行精确的估计。那么有效信息何时会很少呢?答案是:给定该自变量所包含的信息总量,若重叠信息越多,则有效信息越少。那么重叠信息多又意味着什么呢?意味着该变量与其他自变量的相关性较高,即多重共线较严重。
多重共线原本是多元线性回归模型的源起——正是因为自变量间具有相关性,我们才建立多元线性回归模型,以避免变量遗漏偏差,但若多重共线很严重,则将变成一个问题——严重的多重共线表明重叠信息很多,有效信息很少,进而导致边际影响的估计不精确(亦即标准误很大,而过大的标准误会使得参数假设检验犯第二类错误即“取误”的概率增加。点击这里复习)。因此,多重共线问题的本质就是用于估计参数的有效信息不足导致估计结果的不精确。一种极端情况是,当自变量之间的相关性达到100%,即出现所谓的完全共线时,有效信息为零,此时多元线性回归方法失效,模型参数无法识别。
如何解决有效信息不足问题呢?按照统计学的观点,有效信息不足其实属于样本问题。具体来说,就是指某一样本因为样本容量太小而仅包含很少的有效信息。因此,解决有效信息不足的方法是增加样本容量。反过来说,多重共线问题的本质就是样本容量过小。为了更好地理解这一点,我们不妨进行这样的设想:在估计某一自变量的边际影响时,我们遭遇了严重的多重共线问题,即该自变量与其他自变量总是发生共同变化,以致我们难以精确厘清各个自变量对因变量的影响。若我们还可以找到一些新的观测单元,而这些观测单元具有“自变量共同变化程度较低”这一特征,则将它们纳入样本必定会增加有效信息,进而提高参数估计的精度。
有必要指出的是,即使自变量间的总体关系是不相关的,但在小样本中,我们很可能发现自变量具有高度的样本相关性,其中的统计学直觉是:样本容量越小,越容易岀现极端结果,如同抛5次硬币比抛10次硬币更容易出现“所有硬币头像朝上”这种结果一样。这一分析进一步表明,为什么样本容量过小会导致多重共线问题。
多元线性回归方法利用某一自变量的特有信息来估计其边际影响,从而使得“保持其他影响因素不变”这一条件被满足。特有信息是估计自变量边际影响的有效信息,而有效信息越少,越不利于进行精确的估计。
多重共线越严重,则自变量间的重叠信息越多。在样本给定亦即任何一个自变量所包含的信息量被给定的情况下,某一自变量与其他自变量共同具有的重叠信息越多,则该自变量所包含的有效信息越少,而多重共线问题的本质就是用于估计参数的有效信息不足。有效信息不足是一个样本问题。一个样本会因为样本容量太小而仅包含很少的有效信息。同时,样本容量过小还会造成虚假相关的现象。因此,多重共线问题追根溯源是样本容量过小所带来的。
最后,天下没有免费的午餐,看待多重共线问题的经济学视角或许最有启发性——它是解决变量遗漏偏差问题的代价。一般来说,在大样本中,解决变量遗漏偏差问题的收益会超过代价,但若样本容量很小,有效信息不足,则相应的代价也会成为不能承受之重。不幸的是,实证分析均力求样本容量最大化。因此,为解决多重共线问题而进一步增加样本容量往往并不现实。鉴于此,对于多重共线问题,如果我们不愿意冒变量遗漏偏差的风险,那么除了坦率地承认其存在,还能怎么样呢?
作者简介 · 姚耀军
姚耀军,男,湖北利川人,1976年1月生,浙江大学管理学博士,浙江工商大学金融学院教授,浙江省首期之江青年社科学者行动计划入选人,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家、长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术刊物上发表论文多篇,部分成果被《新华文摘》《高等学校文科学术文摘》《人大复印资料(金融与保险)》《人大复印资料(农业经济研究)》全文转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等省部级纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》《金融论坛》《浙江学刊》《浙江社会科学》《农业经济问题》等CSSCI学术期刊的审稿专家。
你要的工具&方法我都给你整理好了!
工具&方法 | 6张图,3分钟阅读即可掌握stata全部命令
工具&方法 | 10个Python Pandas小技巧让你的工作更高效(附代码实例)
工具&方法 | 6行代码教你用python做OLS回归(内附CFPS实例)
工具&方法 | 小刘老师“再”出新招:JSON数据转为面板数据
听说你还在为数据呈现烦恼?看这里!
数据呈现丨好用易懂的matplotlib可视化,快来了解一下!
数据呈现 | Stata+R+Python:拨开数据迷雾,窥探可视化之“美”(工具书推荐,附PDF资源链接)
数据呈现 |Stata+R+Python:一文帮你解决Paper、PPT中的数据可视化问题
让我猜猜,或许你需要的还有这些!
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注